浅议 AI 绘图中,如何保持形象的一致性
大家好,我是清风徐来
这是微信公众号“浩瀚的苍穹”《ChatGPT ,从入门到精通》 第 159篇原创文章。
经常有网友咨询,AI 绘图时保持人物形象的一致性?
一、DALL-E 中保持人物、场景一致性的方法
1、AI 绘画的原理
首先,我们得明白 AI 绘图的原理:根据用户输入的文本提示词,在几十亿张图片中搜索相关性,自动生成新的图片。
这种搜索有随机性,所以,每次生成的图片都不一样!
比如 Midjourney 和 DALL-E,它们的绘图过程其实非常随机。就像每次抽奖都不知道会中什么一样,每次让它们画图,结果也都大不相同。俗称“炼丹”
2、保持一致性的参数
在 DELL-E 中,可以依靠两个参数,进行控制
一个叫 seed(种子),一个叫 genid(生成 ID)
seed 值控制图画中形象的一致性,genid 控制场景的一致性
是,这里有个小秘密:使用一个叫“seed”的参数。这个“seed”就像是绘图的“幸运数字”,当我们用同一个“seed”时,AI 就会画出几乎一模一样的图片。就好比我们每次抽奖都用同一个幸运符,中奖的东西都是一样的 。
比如说,我们在 Midjourney 里画了一个人物,选出自己最满意的一张,然后记下这张图的“seed”值。下次再画同一个人物,只要用同样的“seed”,就能得到几乎一样的结果 。
在 DALL-E 中也是一样,只要设置好“seed”,就可以保证每次生成的图像都有高度的一致性。这就像是给 AI 一个固定的起点,它就会沿着相同的路径走,最终达到相同的目的地。
所以,下次你想让 AI 为你画出稳定不变的人物图像时,记得使用这个小小的“seed”技巧。
举例如下;
打开 GPT4 的 DELL-E(免费的可以使用 newbing)
提示词:“绘图:一个正在
拿小提琴的少女。4:3。给出seef值和genid”
生成图片如下,并给出了 seed 值和 genid
提示词:将seed值为 2115192026 的图片,人物不变,改为弹吉他
AI 重新绘图如下:
我们可以看到,人物没变,但是场景的细节变了!注意墙纸
使用 genide 提示
提示词:把genid为4JWouapY3DdfelOx的图片人物形象不变,改为弹钢琴
AI 再次绘图如下:
大家可以看到,场景恢复了第一张图
结论:
1、在 DALL-E 中,利用 seed 值和 genid 控制不同图片的一致性!2、seed 值控制形象(包括动物等)一致,genid 除了人物外,还控制场景一致!
3、其他技巧
提示语:“同一个女人,4个不同的年龄,5岁,20岁,40岁和60岁。不改变其他任何东西,只改变年龄 对所有图像使用相同的种子 保持头发不变,其他一切都一样,只是年龄不同”
三、字节跳动的新技术
不过,seed值也好,genid也好,都是权宜之计
昨天,字节跳动发布 DreamTurner ,保持人物的一致性
“我们提出 DreamTuner,这是一个创新的框架,专为基于微调和图像编码器的主题驱动生成图像而设计,能够实现从宏观到微观的主题身份保持。”
根据他们的技术,可以保证一次性生成同一个人物不同场景、时间的形象!
项目地址:https://dreamtuner-diffusion.github.io
翻译开头两段:
“大型基于扩散的模型 (diffusion-based models) 在文本到图像的生成领域已经展现了惊人的能力,特别是在那些需要通过一张或几张参考图片来生成个性化概念的应用中,也就是所谓的主题驱动生成。
然而,目前基于微调的方法往往需要在学习主题特征和保持预训练模型的生成能力之间做出折中。此外,基于额外图像编码器的方法往往会因为编码过程中的压缩而丢失一些关键细节。
为了应对这些挑战,我们提出了 DreamTurner,这是一种创新的方法,它能够从宏观到微观层面上注入定制主题的参考信息。我们首先设计了一个主题编码器,用于大致保留主题的身份特征,它通过在视觉-文本交叉关注 (visual-text cross-attention) 之前引入一个额外的注意力层,以引入一般的、经过压缩的主题特征。
接着,我们观察到预训练的文本到图像模型中的自注意力层 (self-attention layers) 天然具有进行详细的空间上下文关联的功能,因此我们将它们修改为自主题关注层 (self-subject-attention layers),用以进一步细化目标主题的细节。
在这里,生成的图像能够同时从参考图像和自身获取详细特征。特别指出,自主题关注是一种优雅、高效且无需训练的方法,能够在保持定制化概念的详细特征方面发挥作用,它可以在推理过程中作为即插即用的解决方案。最终,仅通过对单张图片进行微调,DreamTurner 在由文本或其他条件(例如姿势)控制的主题驱动生成领域取得了卓越的成绩。
我们提出 DreamTuner,这是一个创新的框架,专为基于微调和图像编码器的主题驱动生成图像而设计,能够实现从宏观到微观的主题身份保持。
DreamTuner 包括三个阶段:主题编码器的预训练、主题驱动的微调和主题驱动的推理。
首先,我们训练一个主题编码器来粗略地保存主题的身份。这种主题编码器是一种特殊的图像编码器,它为生成模型提供压缩的图像特征。同时使用了一个固定的 ControlNet 来实现内容和布局的分离。
接下来,我们会在参考图像和一些常规图像(如 DreamBooth 中所用)上对整个模型进行微调。值得注意的是,主题编码器和自主题关注技术在这一过程中用于优化常规图像的生成。
在推理阶段,我们会利用主题编码器、自主题关注技术,以及通过微调获得的特殊主题词 [S*] 来实现从宏观到微观的主题身份保持。预训练的 ControlNet 也可以用来实现布局控制的图像生成。”
预计未来几周,根据这个技术,会有用户可使用的软件和网站出台!
让我们拭目以待
原创不易,欢迎阅读、点赞、转发、分享
付费加入知识星球“浩瀚的 AI 苍穹”后,即可取得 VIP 学习群加入方式!
扫描知识星球二维码,如下:
每隔 1-2 周适当上调,希望大家尽早入群,懂的都懂!
以下是新年新人优惠券
跟着大家,每天分享最新 ChatGPT 实用干货!
不懂就问,言多必得!